deepspeed --num_gpus=8 \
  moe_sft_train.py \
  --deepspeed_config ds_config.json \
  --batch_size 64 \
  --learning_rate 5e-4
